Compression textuelle sur la base de règles issues d'un corpus de sms (Textual Compression Based on Rules Arising from a Corpus of Text Messages) [in French]

نویسنده

  • Arnaud Kirsch
چکیده

Textual Compression Based on Rules Arising from a Corpus of Text Messages The present research seeks to reduce the size of text messages on the basis of compression techniques observed mostly in a corpus of sms. This paper explains the methodology followed to establish compression rules. It then presents the 33 considered rules, and illustrates the four suggested levels of compression with two practical examples, automatically generated by a first prototype. This research’s main purpose is not to produce "sms-language", but consists in designing a textual compression process able to generate short and understandable texts from any textual source in French. The term of "essentialization" is proposed to describe this approach of textual reduction. MOTS-CLEFS : résumé automatique, compression de texte, sms, lisibilité, essentialisation.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Application d'un algorithme de traduction statistique à la normalisation de textos (Applying a Statistical Machine Translation Algorithm to SMS Text Message Normalization) [in French]

RÉSUMÉ Ce travail porte sur l’application d’une technique de traduction statistique au problème de la normalisation de textos. La méthode est basée sur l’algorithme de recherche vorace décrit dans (Langlais et al., 2007). Une première normalisation est générée, puis nous appliquons itérativement une fonction qui génère des nouvelles hypothèses à partir de la normalisation courante, et maximison...

متن کامل

Towards a generic graph rewriting system to enrich syntactic structures (Vers un système générique de réécriture de graphes pour l'enrichissement de structures syntaxiques) [in French]

RÉSUMÉ Ce travail présente une nouvelle approche pour injecter des dépendances profondes (sujet des verbes à contrôle, partage du sujet en cas d’ellipses, . . .) dans un corpus arboré présentant un schéma d’annotation surfacique et projectif. Nous nous appuyons sur un système de réécriture de graphes utilisant des techniques de programmation par contraintes pour produire des règles génériques q...

متن کامل

Exploitation de dictionnaires électroniques pour la désambiguïsation sémantique lexicale

RÉSUMÉ. Cet article présente un système de désambiguïsation lexicale sémantique, conçu initialement pour l’anglais et à présent adapté à la désambiguïsation du français. La méthodologie développée repose sur l’utilisation d’un dictionnaire électronique comme un corpus sémantiquement étiqueté afin d’en extraire une base de règles de désambiguïsation sémantique. Ces règles permettent d’associer à...

متن کامل

Vers une plate-forme interactive pour la visualisation de grands ensembles de règles d'association

Résumé. La recherche de règles d’association est une question centrale en Extraction de Connaissances dans les Données (ECD). Dans cet article, nous nous intéressons plus particulièrement à la restitution visuelle de règles pertinentes dans un corpus très important. Nous proposons ainsi un prototype basé sur une approche de type "wrapper" par intégration des phases d’extraction et de visualisat...

متن کامل

Vers des méta-règles de contexte appréciées par la IIE pour la RI

Text Mining (TM) process, based on mining association rules using an algorithm, generates a significant amount of association rules. In this article, these are non-redundant association rules resulting from a mining process from a text corpus. We first propose to show the interest and usefulness of association rules filtred by a quality measure other than confidence, especially Entropic Implica...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012